智能论文笔记

LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences

Ziwang Fu , Feng Liu , Hanyang Wang , Siyuan Shen , Jiahao Zhang , Jiayin Qi , Xiangling Fu , Aimin Zhou

分类：计算机视觉 | 自然语言处理 | 机器学习

2021-12-03

学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的，具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言，视觉和音频模态。然而，这些方法在融合特征时介绍信息冗余，并且在不考虑方式的互补性的情况下效率低效。在本文中，我们提出了一种高效的神经网络，以学习与CB变压器（LMR-CBT）的模型融合表示，用于从未对准的多模式序列进行多峰情绪识别。具体地，我们首先为三种方式执行特征提取，以获得序列的局部结构。然后，我们设计具有跨模块块（CB变压器）的新型变压器，其能够实现不同模式的互补学习，主要分为局部时间学习，跨模型特征融合和全球自我关注表示。此外，我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后，我们在三个具有挑战性的数据集，IEMocap，CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比，我们的方法以最小数量的参数达到最先进的。

translated by 谷歌翻译

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition

Ziwang Fu , Feng Liu , Hanyang Wang , Jiayin Qi , Xiangling Fu , Aimin Zhou , Zhibin Li

分类：计算机视觉 | 自然语言处理

2021-11-03

基于音频视频的多模式情绪识别由于其强大的性能引起了很多人。大多数现有方法都侧重于提出不同的跨模态融合策略。然而，这些策略在不同模式的特征中引入了冗余，而无需完全考虑模态信息之间的互补特性，并且这些方法不保证在跨跨和间间交互期间的原始语义信息的非损失。在本文中，我们提出了一种基于自我关注和残余结构（CFN-SR）的新型跨模型融合网络，用于多式联情绪识别。首先，我们对音频和视频模型执行表示学习，以通过有效的ResNext和1D CNN获得两个模态的语义特征。其次，我们将两个模态的特征分别馈送到跨模块块中，以确保通过自我关注机制和残余结构来确保信息的有效互补性和完整性。最后，我们通过用原始表示拼接获得的融合表示来获得情绪的产出。为了验证所提出的方法的有效性，我们对Ravdess数据集进行实验。实验结果表明，拟议的CFN-SR实现了最先进的，并以26.30M参数获得75.76％的精度。我们的代码可在https://github.com/skeletonnn/cfn-sr获得。

translated by 谷歌翻译

Reinforced Inverse Scattering

Hanyang Jiang , Yuehaw Khoo , Haizhao Yang

分类：机器学习

2022-06-08

逆波散射旨在使用对象如何散射传入波的数据来确定对象的属性。为了收集信息，传感器被放在不同的位置以彼此发送和接收波。传感器位置和入射波频率的选择决定了散射器特性的重建质量。本文介绍了增强学习，以开发精确成像，以决定传感器位置和波频率以智能方式适应不同的散射器，从而通过有限的成像资源获得重建质量的显着改善。将提供广泛的数值结果，以证明所提出的方法比现有方法的优越性。

translated by 谷歌翻译

HiPAL: A Deep Framework for Physician Burnout Prediction Using Activity Logs in Electronic Health Records

Hanyang Liu , Sunny S. Lou , Benjamin C. Warner , Derek R. Harford , Thomas Kannampallil , Chenyang Lu

分类：机器学习

2022-05-24

倦怠是影响近一半医疗工作者的重大公共卫生问题。本文介绍了基于电子健康记录（EHR）活动日志的医师倦怠的第一个端到端深度学习框架，即任何EHR系统中可用的医师工作活动的数字痕迹。与仅依靠调查进行倦怠测量的先前方法相反，我们的框架直接从大规模的临床医生活动日志中了解了医师行为的深刻表示，以预测倦怠。我们提出了基于活动日志（HIPAL）的层次结构预测，该预测具有预先训练的时间依赖时间的活动嵌入机制，适用于活动日志和分层预测模型，该模型反映了临床医生活动日志的自然等级结构，并捕获了医生的演化。短期和长期水平的倦怠风险。为了利用大量未标记的活动日志，我们提出了一个半监督的框架，该框架学会了将从未标记的临床医生活动中提取的知识转移到基于HIPAL的预测模型中。从EHR收集的1500万个临床医生活动日志的实验证明了我们提出的框架在医师倦怠和培训效率方面的预测框架比最先进的方法的优势。

translated by 谷歌翻译

A Systematic IoU-Related Method: Beyond Simplified Regression for Better Localization

Hanyang Peng , Shiqi Yu

分类：计算机视觉 | 人工智能

2021-12-03

在现代探测器中，默认使用四变独立回归定位损耗，如平滑 - $ \ ell_1 $丢失。然而，这种损失超薄了，使其与联盟（iou）的最终评估度量，交叉口不一致。直接采用标准IOU也不是不可行的，因为在非重叠盒的情况下的恒定零高原和最小值的非零梯度可能使其不可培养。因此，我们提出了一种解决这些问题的系统方法。首先，我们提出了一个新的公制，延伸的iou（eiou），当两个盒子没有重叠时，它是良好的定义，当重叠时，它是不重叠的并且减少到标准iou。其次，我们介绍了凸化技术（CT）以在EIOU的基础上构建损失，这可以保证梯度最小为零。第三，我们提出了一种稳定的优化技术（SOT），使分数欧盟损失更加稳定，平稳地接近最低。第四，为了充分利用基于EIOO的损失的能力，我们引入了一个相互关联的iou预测头，以进一步提升本地化准确性。通过拟议的贡献，新方法与Reset50 + FPN的备用R-CNN掺入，作为骨干收益率\ TextBF {4.2 Map} Gain on Voc2007和Coco2017上的基准下滑 - $ \ ell_1 $损失，几乎\ textbf {没有培训和推理计算成本}。具体而言，度量标准更长的是，增益越令人显着，在Coco2017上的VOC2007和\ TextBF {5.4 MAP}上越突出，可以在Coco2017上以公式$ AP_ {90} $。

translated by 谷歌翻译

Detect Faces Efficiently: A Survey and Evaluations

Yuantao Feng , Shiqi Yu , Hanyang Peng , Yan-Ran Li , Jianguo Zhang

分类：计算机视觉 | 人工智能

2021-12-03

面部检测是为了在图像中搜索面部的所有可能区域，并且如果有任何情况，则定位面部。包括面部识别，面部表情识别，面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来，研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而，随着图像和视频的巨大增加，具有面部刻度的变化，外观，表达，遮挡和姿势，传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破，以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法，并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较，以使用两个度量来揭示其效率：拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器，也可以开发更高效和准确的探测器。

translated by 谷歌翻译

Objective-aware Traffic Simulation via Inverse Reinforcement Learning

Guanjie Zheng , Hanyang Liu , Kai Xu , Zhenhui Li

分类：人工智能

2021-05-20

交通模拟器是运输系统运营和计划中的重要组成部分。常规的交通模拟器通常采用校准的物理跟踪模型来描述车辆的行为及其与交通环境的相互作用。但是，没有普遍的物理模型可以准确地预测不同情况下车辆行为的模式。鉴于交通动态的非平稳性质，固定的物理模型在复杂的环境中往往不太有效。在本文中，我们将流量模拟作为一个反向加强学习问题，并提出一个参数共享对抗性逆增强学习模型，以进行动态射击模拟学习。我们提出的模型能够模仿现实世界中车辆的轨迹，同时恢复奖励功能，从而揭示了车辆的真实目标，这是不同动态的不变。关于合成和现实世界数据集的广泛实验表明，与最先进的方法相比，我们方法的出色性能及其对流量变化动态的鲁棒性。

translated by 谷歌翻译

Predicting Intraoperative Hypoxemia with Hybrid Inference Sequence Autoencoder Networks

Hanyang Liu , Michael C. Montana , Dingwen Li , Chase Renfroe , Thomas Kannampallil , Chenyang Lu

分类：机器学习

2021-04-30

我们提出了一种使用流生理时间序列的端到端模型，以准确预测低氧血症的近期风险，低氧血症是一种罕见但威胁生命的疾病，已知在手术期间造成严重的患者伤害。受到以下事实的启发：低氧血症事件是根据未来观察到的低spo2（即血氧饱和度）实例定义的，我们提出的模型使对未来的低spo2实例和低氧血症结果的混合推断，并由关节序列启用同时优化标签预测的判别解码器的自动编码器，以及对数据重建和预测进行了培训的两个辅助解码器，它们无缝地学习上下文的潜在表示，这些表示捕获了当前状态之间的过渡到未来状态。所有解码器都共享一个基于内存的编码器，有助于捕获患者测量的全局动态。对于一个主要的学术医学中心进行了72,081次手术的大型手术队列，我们的模型优于所有基础，包括最先进的低氧预测系统使用的模型。能够以临床上可接受的警报对近期低氧事件的警报进行分辨率的实时预测，尤其是更关键的持续性低氧血症，我们提出的模型在改善临床决策和减轻围手术期的减轻负担方面有希望。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译

A Survey On Few-shot Knowledge Graph Completion with Structural and Commonsense Knowledge

Haodi Ma , Daisy Zhe Wang

分类：自然语言处理 | 人工智能 | 机器学习

2023-01-03

Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.

translated by 谷歌翻译